Model Selection

Reinforcement learning reward model

# Reinforcement learning reward model

POLAR-7B is a scalar reward model based on large-scale pretraining. It adopts an innovative policy discriminative learning paradigm and can effectively distinguish policies and align with human preferences.

Large Language Model

Transformers Supports Multiple Languages

Japanese Novel Reward Modernbert Ja 310m

A reward model for Japanese novel quality assessment fine-tuned from modernbert-ja-310m, used to predict user evaluations of novel texts.

Large Language Model

Transformers Japanese

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase